home *** CD-ROM | disk | FTP | other *** search
/ IRIX 6.2 Development Libraries / SGI IRIX 6.2 Development Libraries.iso / dist / complib.idb / usr / share / catman / p_man / cat3 / complib / blas.z / blas
Text File  |  1996-03-14  |  13KB  |  331 lines

  1.  
  2.  
  3.  
  4. BBBBLLLLAAAASSSS((((3333FFFF))))                                                              BBBBLLLLAAAASSSS((((3333FFFF))))
  5.  
  6.  
  7.  
  8. NNNNAAAAMMMMEEEE
  9.      BLAS, libblas - Basic Linear Algebra Subprograms
  10.  
  11. DDDDEEEESSSSCCCCRRRRIIIIPPPPTTTTIIIIOOOONNNN
  12.      BLAS is a library of routines that perform basic operations involving
  13.      matrices and vectors. They were designed as a way of acheiving efficiency
  14.      in the solution of linear algebra problems. The BLAS, as they are now
  15.      commonly called, have been very successful and have been used in a wide
  16.      range of software, including LINPACK, LAPACK and many of the algorithms
  17.      published by the ACM Transactions on Mathematical Software. They are an
  18.      aid to clarity, portability, modularity and maintenance of software, and
  19.      have become the de facto standard for elementary vector and matrix
  20.      operations.
  21.  
  22.      The BLAS promote modularity by identifying frequently ocurring operations
  23.      of linear algabra and by specifying a standard interface to these
  24.      operations.  Efficiency is achieved through optimization within the BLAS
  25.      without altering the higher-level code that has referenced them.
  26.  
  27.      There are three levels of BLAS. The original set of BLAS, commonly
  28.      refered as the Level 1 BLAS, perform low-level operations such as dot-
  29.      product and the adding of a multiple of one vector to another. Typically
  30.      these operations involve O(N) floating point operations and O(N) data
  31.      items moved (loaded or stored), where N is the length of the vectors. The
  32.      Level 1 BLAS permit efficient implementation on scalar machines, but the
  33.      ratio of floating-point operations to data movement is too low to achieve
  34.      effective use of most vector or parallel hardware.
  35.  
  36.      The Level 2 BLAS perform Matrix-Vector operations that occur frequently
  37.      in the implementation of mant of the most common linear algebra
  38.      algorithms.  They involve O(N^2) floating point operations. Algorithms
  39.      that use Level 2 BLAS can be very efficient on vector computers, but are
  40.      not well suited to computers with a hierarchy of memory (such as cache
  41.      memory).
  42.  
  43.      The Level 3 BLAS are targeted at matrix-matrix operations. These
  44.      operations generally involve O(N^3) floating point operations, while only
  45.      creating O(N^2) data movement. These operations permit efficient reuse of
  46.      data that resides in cache and create waht is often called the surface-
  47.      to-volumne effect for the ratio of computations to data movement. In
  48.      addition, matrices can be partitioned into blocks, and operations on
  49.      distinct blocks can be performed in parallel, and within the operations
  50.      on each block, scalar or vector operations may be performed in parallel.
  51.  
  52.      BLAS2 and BLAS3 modules have been optimized and parallelized to take
  53.      advantage of SGI's RISC parallel architecture. The best performances are
  54.      achieved for BLAS3 routines (e.g. DGEMM), where "outer-loop" unrolling +
  55.      "blocking" techniques were applied to take advantage of the memory cache.
  56.      The performance of BLAS2 routines (e.g. DGEMV) is sensitive to the size
  57.      of the problem, for large sizes the high rate of cache miss slows down
  58.      the algorithms.
  59.      LAPACK algorithms use preferably BLAS3 modules and are the most
  60.  
  61.  
  62.  
  63.                                                                         PPPPaaaaggggeeee 1111
  64.  
  65.  
  66.  
  67.  
  68.  
  69.  
  70. BBBBLLLLAAAASSSS((((3333FFFF))))                                                              BBBBLLLLAAAASSSS((((3333FFFF))))
  71.  
  72.  
  73.  
  74.      efficient.  LINPACK uses only BLAS1 modules and therefore is less
  75.      efficient than LAPACK.
  76.  
  77.      To link with "libblas", it is advised to use "f77" to load all the
  78.      Fortran Libraries required. For Power Challenge, you should use the mips4
  79.      version. This is accomplished by using ----mmmmiiiippppssss4444 when linking:
  80.           ffff77777777 ----mmmmiiiippppssss4444 -o foobar.out foo.o bar.o ----llllbbbbllllaaaassss
  81.      To use the parallelized version, use
  82.           ffff77777777 ----mmmmiiiippppssss4444 -o foobar.out foo.o bar.o ----llllbbbbllllaaaassss____mmmmpppp
  83.  
  84. SSSSUUUUMMMMMMMMAAAARRRRYYYY
  85.      BBBBLLLLAAAASSSS LLLLeeeevvvveeeellll 1111::::
  86.          .....function......      ....prefix,suffix.....  rootname
  87.          dot product              s-  d- c-u c-c z-u z-c  -dot-
  88.          y = a*x + y              s-  d-     c-      z-   -axpy
  89.          setup Givens rotation    s-  d-                  -rotg
  90.          apply Givens rotation    s-  d-     cs-     zd-  -rot
  91.          copy x into y            s-  d-     c-      z-   -copy
  92.          swap x and y             s-  d-     c-      z-   -swap
  93.          Euclidean norm           s-  d-     sc-     dz-  -nrm2
  94.          sum of absolute values   s-  d-     sc-     dz-  -asum
  95.          x = a*x                  s-  d- cs- c-  zd- z-   -scal
  96.          index of max abs value  is- id-     ic-     iz-  -amax
  97.  
  98.  
  99.      BBBBLLLLAAAASSSS LLLLeeeevvvveeeellll 2222::::
  100.         MV Matrix vector multiply
  101.         R  Rank one update to a matrix
  102.         R2 Rank two update to a matrix
  103.         SV Solving certain triangular matrix problems.
  104.  
  105.      single precision Level 2 BLAS     |     Double precision Level 2 BLAS
  106.      -----------------------------------------------------------------------
  107.              MV   R    R2  SV          |             MV   R    R2  SV
  108.      SGE     x    x                    |     DGE     x    x
  109.      SGB     x                         |     DGB     x
  110.      SSP     x    x    x               |     DSP     x    x    x
  111.      SSY     x    x    x               |     DSY     x    x    x
  112.      SSB     x                         |     DSB     x
  113.      STR     x              x          |     DTR     x              x
  114.      STB     x              x          |     DTB     x              x
  115.      STP     x              x          |     DTP     x              x
  116.  
  117.      complex  Level 2 BLAS             | Double precision complex Level 2 BLAS
  118.      -----------------------------------------------------------------------
  119.              MV   R     RC   RU  R2  SV|          MV   R     RC   RU  R2  SV
  120.      CGE     x          x    x         |  ZGE     x          x    x
  121.      CGB     x                         |  ZGB     x
  122.      CHE     x    x              x     |  ZHE     x    x              x
  123.      CHP     x    x              x     |  ZHP     x    x              x
  124.      CHB     x                         |  ZHB     x
  125.      CTR     x                       x |  ZTR     x                       x
  126.  
  127.  
  128.  
  129.                                                                         PPPPaaaaggggeeee 2222
  130.  
  131.  
  132.  
  133.  
  134.  
  135.  
  136. BBBBLLLLAAAASSSS((((3333FFFF))))                                                              BBBBLLLLAAAASSSS((((3333FFFF))))
  137.  
  138.  
  139.  
  140.      CTB     x                       x |  ZTB     x                       x
  141.      CTP     x                       x |  ZTP     x                       x
  142.  
  143.      BBBBLLLLAAAASSSS LLLLeeeevvvveeeellll 3333::::
  144.         MM  Matrix matrix multiply
  145.         RK  Rank-k update to a matrix
  146.         R2K Rank-2k update to a matrix
  147.         SM Solving triangular matrix with many right-hand-sides.
  148.  
  149.      single precision Level 3 BLAS     |     Double precision Level 3 BLAS
  150.      -----------------------------------------------------------------------
  151.              MM   RK   R2K SM          |             MM   RK   R2K SM
  152.      SGE     x                         |     DGE     x
  153.      SSY     x    x    x               |     DSY     x    x    x
  154.      STR     x              x          |     DTR     x              x
  155.  
  156.      complex  Level 3 BLAS             | Double precision complex Level 3 BLAS
  157.      -----------------------------------------------------------------------
  158.              MM   RK   R2K SM          |             MM   RK   R2K SM
  159.      CGE     x                         |     ZGE     x
  160.      CSY     x    x    x               |     ZSY     x    x    x
  161.      CHE     x    x    x               |     ZHE     x    x    x
  162.      CTR     x              x          |     ZTR     x              x
  163.  
  164. CCCC IIIINNNNTTTTEEEERRRRFFFFAAAACCCCEEEE
  165.      There is a C interface for the BLAS library. The implementation is based
  166.      on the proposed specification for BLAS routines in C [1].
  167.  
  168.      The argument lists follow closely the equivalent Fortran ones. The main
  169.      changes being that enumeration types are used instead of character types
  170.      for option specification, and two dimensional arrays are stored in one
  171.      dimensional C arrays in an analogous fashion as a Fortran array (column
  172.      major). Therfore, a matrix A would be stored as:
  173.  
  174.            double (*a)[lda*n];
  175.         /*                                                         */
  176.         /*          aaaa is a pointer to an array of size ttttddddaaaa****nnnn       */
  177.         /*                                                         */
  178.  
  179.      where  element  A(i+1,j)  of matrix A  is stored  immediately  after the
  180.      element  A(i,j), while  A(i,j+1) is lda  elements apart from  A(i,j). The
  181.      element A(i,j) of the matrix can be accessed directly by reference to  a[
  182.      (j-1)*lda + (i-1) ].
  183.  
  184.      The names of the C versions of the BLAS are the same as the Fortran
  185.      versions since the compiler puts the Fortran names in upper case and adds
  186.      an underscore after the name.
  187.  
  188.      The argument lists use the following data types:
  189.  
  190.              Integer:        an integer data type of 32 bits.
  191.                float:        the regular single precision floating-point type.
  192.  
  193.  
  194.  
  195.                                                                         PPPPaaaaggggeeee 3333
  196.  
  197.  
  198.  
  199.  
  200.  
  201.  
  202. BBBBLLLLAAAASSSS((((3333FFFF))))                                                              BBBBLLLLAAAASSSS((((3333FFFF))))
  203.  
  204.  
  205.  
  206.               double:        the regular double precision floating-point type.
  207.              Complex:        a single precision complex type.
  208.              Zomplex:        a double precision complex type.
  209.  
  210.      plus the enumeration types given by
  211.  
  212.        typedef enum { NoTranspose, Transpose, ConjugateTranspose }
  213.                     MatrixTranspose;
  214.  
  215.        typedef enum { UpperTriangle, LowerTriangle }
  216.                     MatrixTriangle;
  217.  
  218.        typedef enum { UnitTriangular, NotUnitTriangular }
  219.                     MatrixUnitTriangular;
  220.  
  221.        typedef enum { LeftSide, RightSide }
  222.                     OperationSide;
  223.  
  224.      The complex data types are stored in cartisian form, i.e., as real and
  225.      imaginary parts. For example
  226.  
  227.        typedef struct {  float real;
  228.                          float imag;
  229.                                      } Complex;
  230.  
  231.        typedef struct { double real;
  232.                         double imag;
  233.                                      } Zomplex;
  234.  
  235.      The operations performed by the C BLAS are identical to those performed
  236.      by the corresponding Fortran BLAS, as specified in [2], [3] and [4].
  237.  
  238.      To use the C BLAS, link with "libblas". It is advised to use "f77" to
  239.      load all the Fortran Libraries required:
  240.           ffff77777777 -o foobar.out foo.o bar.o ----llllbbbbllllaaaassss
  241.  
  242. FFFFIIIILLLLEEEESSSS
  243.      /usr/lib/libblas.a
  244.      /usr/lib/libblas_mp.a
  245.      /usr/include/cblas.h
  246.  
  247. OOOORRRRIIIIGGGGIIIINNNN
  248.      The original Fortran source code comes from netlib.
  249.  
  250. RRRREEEEFFFFEEEERRRREEEENNNNCCCCEEEESSSS
  251.      S.P. Datardina, J.J. Du Croz, S.J. Hammrling and M.W. Pont, "A Proposed
  252.      Specification of BLAS Routines in C", NAG Technical Report TR6/90.
  253.  
  254.      C Lawson, R. Hanson, D. Kincaid, and F. Krough, "Basic Linear Algebra
  255.      Subprograms for Fortran usage ", ACM Trans. on Math. Soft. 5(1979)
  256.      308-325
  257.  
  258.  
  259.  
  260.  
  261.                                                                         PPPPaaaaggggeeee 4444
  262.  
  263.  
  264.  
  265.  
  266.  
  267.  
  268. BBBBLLLLAAAASSSS((((3333FFFF))))                                                              BBBBLLLLAAAASSSS((((3333FFFF))))
  269.  
  270.  
  271.  
  272.      J.Dongarra, J.DuCroz, S.Hammarling, and R.Hanson, "An extended set of
  273.      Fortran Basic Linear Algebra Subprograms", ACM Trans. on Math. Soft. 14,
  274.      1(1988) 1-32
  275.  
  276.      J.Dongarra, J.DuCroz, I.Duff,and S.Hammarling, "An set of level 3 Basic
  277.      Algebra Subprograms", ACM Trans on Math Soft( Dec 1989)
  278.  
  279.  
  280.  
  281.  
  282.  
  283.  
  284.  
  285.  
  286.  
  287.  
  288.  
  289.  
  290.  
  291.  
  292.  
  293.  
  294.  
  295.  
  296.  
  297.  
  298.  
  299.  
  300.  
  301.  
  302.  
  303.  
  304.  
  305.  
  306.  
  307.  
  308.  
  309.  
  310.  
  311.  
  312.  
  313.  
  314.  
  315.  
  316.  
  317.  
  318.  
  319.  
  320.  
  321.  
  322.  
  323.  
  324.  
  325.  
  326.  
  327.                                                                         PPPPaaaaggggeeee 5555
  328.  
  329.  
  330.  
  331.